探讨：全匿踪联邦学习到底应该怎么做？

Original 庄智廉开放隐私计算 2022-12-10

近日，业内某隐私计算A公司在公开大会上宣布其实现了“全匿踪联邦学习”，引发业界关注并热议。

据介绍，“全匿踪联邦学习”是指在不暴露用户ID、匿名化条件下进行联邦学习的技术，解决了目前隐私计算方案中普遍存在的“缺少个人授权”、“交集ID泄露”的重大法律风险问题，让机构之间的数据要素价值流通真正合规可信。具有真正匿名化、不暴露任何样本交集、去中心化架构、高性能高精度低误差等特点，可以应用在金融风控、智慧民生等真实场景中。

该公司也对该技术的工作机制，如下图所示：

注：图源该公司公众号推文

简单概况为：“经过了匿名化处理后的样本，参与方持有的是全匿样本的碎片，包括碎片化的标签、碎片化的特征。里面的样本有的是相交的，有的是不相交的。不在交集里的样本也参加训练，但它的值是一个共享的密态0，所以虽然参与计算，但不会产生任何结果上的影响。”从一个总体概括性的角度进行了算法说明，并未深入介绍更多的算法细节。

一项前沿技术总免不了有讨论的声音，业内B公司在平台上发表质疑：“小编通读全文后，仍不知晓采用的何种MPC技术”。该公司也介绍了一种 “符合上述针对多方数据集在无交集泄露、匿名化的情况下实现样本对齐操作，采用的MPC技术为——Circuit-PSI”。并给出其功能定义和实现方式。

隐私集合求交（PSI）是实现隐私计算的一项关键技术，也是纵向联邦学习中的一项关键前置技术。目前常用的PSI算法包括ECDH、KKRT、PSTY等。ECDH是基于椭圆曲线算法的方案；KKRT是结合了Cuckoo hash 以及 batched OPRF，构造出的一个比较高效的基于 OT 的 PSI 协议；PSTY是基于混淆电路的高效PSI协议。

纵观目前业界采用的隐私集合求交技术，大多都是可以保证参与方独有的样本不被暴露，而共有的样本ID则会被多方共享。如不共享，则无法进行后续的联邦训练。“全匿踪联邦学习”则希望在此取得突破。在得到不泄露ID的交集后，接下来的联邦学习前向传播、损失计算、反向传播等过程都应基于密态数据，联邦学习交互过程也需重新构建。在这里，我们想与大家探讨“全匿踪联邦学习”应该怎么去做？欢迎大家在评论区提出关于“全匿踪联邦学习”的宝贵看法。

END

往期推荐: